Información

Datos - Relaciona el comportamiento del nivel de glucosa en sangre con variables como edad, número de embarazos y que las mujeres sean diabéticas o no.

Boxplot - El escalado permite ubicar las variables en una misma dimensión, de tal manera que las variables puedan ser comparables y no se le de un peso incorrecto a una por encima de la otra.

Correlación

PCA

Componentes Principales - PCA de los datos escalados

Biplot - El gráfico de componentes principales muestra que el mayor porcentaje de variabilidad de información es de 47.58% distribuido en las componentes 1 y 2.

KNN

Column

KNN k=1

68.6

Matriz de confusión - De acuerdo a la matriz de confusión, el modelo predice predice bien los verdaderos positivos y negativos, sin embargo el porcentaje de falsos positivos y negativos todavía puede mejorarse.

Column

KNN k=27

72.82

Matriz de confusión - el porcentaje de aciertos mejoró, por lo cual el modelo es capaz de predecir la enfermedad con mayor precisión, lo cual se ve reflejado en que los falsos positivos y negativos se redujeron.

Column

KNN k=45

75.46

Matriz de confusión El K con mayor porcentaje de aciertos es K=45, y se logra un máximo de 75.46%, sin embargo el porcentaje de falsos negativos sigue siendo alto, por lo cual puede concluirse que el sistema confunde los pacientes que en realidad están enfermos pero el sistema clasifica como sanos.